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У роботі описано побудову моделі паралелізації обчислення невід'ємної факторизації розріджених 
матриць надвеликої розмірності. Реалізації запропонованих моделей були порівняні в обробці 
надвеликої матриці. 
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ТЬі8 рарег ргоро5ез рагаїеі пеїподз ої поп-певабує Биєе зраг5е таїгіх Гасіогігайоп. Те шпріетепайоп ої 
ргоро5ед плеїродя газ (езіеа апа сотрагеа оп Биєе плайтіх 
Кеу ууогаз: согариїайопа! Пппеціяйся, рагаїе! соттрикайопзя, поп-пегайує таїгіх Гасіогігайоп. 


В работе описано построениє модели параллелизация вьїчисления неотрицательной факторизаций 
разреженньх матриц сверхбольшой размерности. Реализаций предложенньгх моделей бьтли сравненьт в 
обработке сверхбольшой матриць. 

Ключевьге слова: лингвистика, параллелизация, неотрицательная факторизация матриц, 
СРО. 


Сьогодні невід'ємна факторизація матриць 1 тензорів є дуже популярною 
технологією в штучному інтелекті взагалі, та, зокрема, в комп'ютерній 
лінгвістиці. Використовуючи невід'ємну  факторизацію в рамках парадигми 
латентно-семантичного аналізу, комп'ютерні лінгвісти застосовують даний підхід 
для розв'язання таких прикладних задач, як класифікація, кластеризація текстів та 
термінів|1, 2|, побудова мір семантичної близькості|3|, автоматичне виділення 
лінгвістичних структур та відношень (З5еіесйопа! Ргеїегепсеє |4) апа Мегр 5иб- 
Саїегогігайоп Егате5 (5) та багато інших. 

Дана робота описує побудову моделі паралелізації обчислення невід'ємної 
факторизації розріджених матриць надвеликої розмірності, що представляє 
особливий інтерес та актуальність для її застосування у великих МІР системах 
загального тематичного напрямку, необмежених використанням лише для вузьких 
предметних областей. 

Задача невід'ємної  факторизації розріджених матриць  надвеликої 
розмірності постала в процесі розробки системи визначення міри семантичної 
близькості-зв'язності за технологією латентного семантичного аналізу|6). Для 
побудови системи був оброблений великий текстовий корпус статей англомовної 
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Вікіпедії. Обробка корпусу полягала у лексичному аналізі та лематизації лексем 
речень статей та в обчисленні частот вживання множини слів та словосполучень 
англійської мови в складі різних статей англомовної Вікіпедії. У результаті була 
побудована велика матриця СловахСтатті, яка містила частотну оцінку вживання 
слів в текстах статей Вікіпедії. Розмірність матриці дорівнює 2,437,234 слів- 
словосполучень на 4,475,180 статей англомовної Вікіпедії. Після цього для 
усунення з матриці випадкових даних був встановлений пороговий рівень Т-3, 
частотні оцінки в матриці, які менші за пороговий рівень Т, були обнулені). У 
результаті була побудована розріджена матриця надвеликого розміру - 
156,236,043  ненульових елементів при розмірі 2,437,234х4.475,130. Для 
невід'ємної факторизації розрідженої матриці такого розміру знадобилася 
розробка спеціальної моделі паралелізації матричних обчислень, яка була 
реалізована із застосуванням паралельних розподілених обчислень та обчислень 
на СРО. Низка реалізацій факторизації матриць була вже реалізована 1 
представлена у |7,8,9,13|. Але жодна з розроблених моделей не є допустимою для 
поставленої задачі. Деякі з них |7,8,9| не задовольняють потреби розмірності 
матриці. Модель, запропонована в  (13|, проводить факторизацію матриць 
запропонованого розміру за задовільний час, але потребує занадто великих 
розрахункових комп'ютерних потужностей, що є не завжди доступним. 


Алгоритм невід'ємної матричної факторизації 


Алгоритм невід'ємної матричної факторизації|11| виконує декомпозицію 
невід'ємної матриці У на невід'ємні матриці УУ та Н таким чином, щоб: 

У з ИН 

Як функція оцінки Н може бути використана функція виміру відстані між 
двома невід'ємними матрицями. Однією з таких мір є квадрат Евклідової 
метрики: 


пе А- вій УЧАу - Ву)" 
| 


Така цільова функція обмежена знизу. Нижня границя () досягається тоді і 
тільки тоді коли 

А-свВ 

Отже, при використанні Евклідової метрики, факторизація матриці полягає в 
мінімізації ПИ - УНІЇ? за умови невід'ємності Й/ та Н. 

Така цільова функція не зростаюча за наступних правил: 

на ен Ду її 

С Щ(//Туун) 


тн о) 


Виконання ітерацій алгоритму продовжується до тих пір, поки не буде 
досягнута стаціонарна точка, або не буде виконана максимальна кількість 
ітерацій. 

Аналіз моделі 

У таблиці 1 представлено необхідні об'єми пам'яті для зберігання матриць 
МУ та Н при різних К при використанні типу даних Поаї (32517). 

Описаний алгоритм на кожній ітерації потребує у 2 рази більше пам'яті для 
збережень матриць (не враховуючи потреби на збереження початкової матриці У). 
Враховуючи такі потреби в пам'яті, для виконання алгоритму на одному 
комп'ютері необхідно проводити збереження даних на жорсткий диск. Далі буде 
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розглянуто та порівняно 2 підходи до паралелізації алгоритму: локальний та 
розподілений. 


Таблиця 1. Необхідні об'єми пам'яті для зберігання матриць УУ та Н при різних К 


К 100 200 300 

ИЙ 0.95СЬ 1.95СЬ 2.92СЬ 

Н 1.79СЬ 3.53СЬ 5.37СЬ 
Всього 2./76Сь 5.53СЬ 8.29СЬ 
Паралелізація алгоритму з використанням СРО 
Для спрощення, зробимо заміну в (1) та (2): Н ен, Отримаємо 

уд МУ 

(Ву з (Но здутоо -1/) 4 

гі) 2-1 Кн ТАЙ у ( ) 
(Уд з сту НН (5) 

; ЦИ, НН); 


Таким чином, обидві формули (4) та (5) ми можемо представити в одному 
вигляді, завдяки заміні Н', Й/ та У", або И/, Н'та У на А, В та5 відповідно: 


от УСАВТВ)д (6) 
Формула (6) може бути представлена як послідовність чотирьох кроків (7): 
Се 5В (Та) 

Кав'в (76) 

реак (с) 
УРА Я; 

Яцо ж (9 


Такий порядок обчислень є оптимальним для виразу (6). Ці кроки мають 
обчислювальну складність О(К х (пп2(5) 4 п)), О(К'т), О(К"п) та О(кт) відповідно, де 
ппа(5) - кількість ненульових елементів матриці 5. Перші три кроки(7а-7с) 
підтримуються бібліотеками СОДА сизРАВ5НИ17| та сиВІ АЗ5(16). Четвертий 
крок (74) для виконання потребує реалізації власного ядра СРО, але в той же час, 
це відносно швидка операція і тому може бути виконана на СРО. 

Так як матриці занадто великі для збереження в пам'яті СРІ), ці операції(/а- 
74) повинні виконуватись над частинами, з врахуванням необхідності зменшення 
об'ємів обміну даними з графічним адаптером. 


- (се г я 
Для виразу (7а) повинні розкласти матриці да (592 59) та 8 - (Ві |В. ІВ) 
та підрахувати С: 
Ві п бів, 
сьомою 1 (8) 
5В 5,В, 
В з (ВВІВ Каевтв.втв 
Для виразу (7) варто розглядати 1172 ?, а отже р пе з 


Підрахунок цього виразу не потребує додаткового завантаження будь-яких матриць 
у пам'ять графічного адаптера після виконання (74). 

Для підрахунку (7с) ми можемо залишити в пам'яті СР) матрицю К і 
помножити матрицю А як стовпчик блоків. 
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Також можна зменшити використання пам'яті завдяки комбінуванню (74) та 
(7с), так як (74) - поелементне правило і єдине інше правило, в якому 
використовується матриця А - (7с). Не буде потреби зберігати в пам'яті матрицю 
О, якщо виконувати (74) на блоці з матриці А, який необхідний для обчислення 
певного блоку матриці Р. 

Складність підрахунку 0 Евклідової з метрики | між початковою та 
факторизованою моделлю складає 0(пт), Такий підрахунок просто реалізується з 
використанням графічних адаптерів. 


Розподілений алгоритм 


Наступним кроком для покращення швидкодії є використання мережі ПК 
для проведення обчислень. Розглянемо можливі  розподіленні моделі. 
Припустимо, що мережа складається з двох вузлів. Можливі наступні моделі 
розподілення обчислень: 

1. Підраховувати У" та Н! окремо на різних вузлах. Таким чином обидва 
вузли будуть перебувати в одному з двох альтернативних режимів. Або будуть 
вузлом підтримки іншого вузла (передача даних на інший вузол) або будуть 
проводити підрахунки | (обчислювати матрицю, за яку відповідають, за 
допомогою даних, отриманих з вузла підтримки). У такій моделі розподілення на 
кожній ітерації ми повинні будемо передати по мережі дві матриці такого ж 
розміру, як і М/ та Н. Також вузол розрахунків буде в основному простоювати, 
тому що (Ла) є найбільш витратним кроком з усіх чотирьох. 

| 2 Розділити матриці У та В на блоки та розподілити їх між вузлами. 
н «(ві|ні) та Из (ЙО, ну, 
Но М» 


М/о), Робимо перший вузол відповідальним за 


другий за При такому підході кожен вузол виступає як у ролі вузла 
підтримки, так і у ролі вузла розрахунків одночасно. У такій моделі вузли повинні 
передавати по мережі об'єм даних рівний 15 - (5ігео) (М/ ) К 5іхео) (Н)) , де 
зідеої (Х) - об'єм пам'яті, необхідний для зберігання матриці Х 

3. Розділити матриці У" та Н! на блоки та розподілити їх між вузлами. 
На (н| ну)" та З (Му ма)", Робимо перший вузол відповідальним за Ні, аю 
другий за Но, У, у цій моделі, аналогічно до попередньої, кожен вузол мережі 
виступає одночасно як у ролі вузла підтримки, так 1 у ролі вузла розрахунків. 
Об'єм передачі даних вузлом рівний 5і2е0/ (И/ ) -к зілео/ (Н) 

У кожній з представлених моделей також є необхідність передачі одної або 
декількох матриць |К;К|, але їх розміром можна знехтувати в порівнянні з 
матрицями Ї/ та Н. Для підрахунку функції оцінки и в першій та третій моделі 

(відео (Й) -- 5ілео Г(Н)) «К 
вузлам необхідно передати дані в об'ємі 2. ,де К - кількість 
вузлів в мережі, у другій моделі необхідно передати в (К - 1) раз більше даних. 

Варто також зазначити, що ріст мережі призведе до експоненціального росту 
сумарного об'єму переданих даних, хоча об'єм передачі даних одного вузла буде 
не більш ніж 2 " (5іхео) (И/ ) - зілео) (Н)), 

Для кращого розподілення розрахунків між вузлами мережі, враховуючи 
розрідженість початкової матриці У, необхідно виконати перестановки рядків та 
стовпчиків для нормалізації кількості ненульових елементів у кожному блоці. 

Очевидно, що третя модель найкраще підходить з точки зору мережевого 
обміну даними та використання СРО. Тому саме ця модель була використана в 
нашому дослідженні, реалізована з використанням мережі з чотирьох вузлів 1 
описана далі. 
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Згідно з моделлю 3 необхідно розділити матриці У/, Ні Унаступним чином: 
У М 
ЗПР Р ЗА «ИНА У бар 
ми (ил илу ми мг;) б - (ні|но|Нз | ну) , Удод 
Алгоритм складається з трьох основних фаз: ініціалізації, ітерації, 


підрахунку метрики. Під час фази ініціалізації матриці У/, Н'ЇУ розподіляються 


між чотирма вузлами так, щоб і-ий вузол отримав матриці Му Ні та Ук У 


к-1,.8, Дана фаза представлена на рисунку |(а). 
Фаза ітерації складається з двох аналогічних етапів, один для підрахунку Н", 
а другий для У/. Кожен етап включає 3 кроки. 


ік, де 


. Фу . т 
На першому кроці кожний вузол підраховує матрицю ух, і розміру х Кк 


та надсилає її до агрегатору. Агрегатор об'єднує всі отримані блоки в одну 
матрицю Ку та надсилає отриманий результат всім вузлам. Цей крок представлено 
на Рисунку Ща). 


(а) (5) 

Рис. 1. Розподілена модель з чотирма вузлами 
На другому кроці кожен вузол підраховує власне (и У2 | Узі Уж д'х М, 
Отримана матриця співпадає за розмірами з Н", Далі кожний вузол ділить цю 
матрицю згідно з початковим розбиттям матриці Н та передає отримані блоки 
відповідним вузлам. Цей крок представлено на Рисунку 1(Ь). 

На третьому кроці вузли підраховують матрицю НІХ К, та виконують 
оновлення матриці Н". Цей крок не потребує передачі даних по мережі. 

Ці три кроки необхідні для підрахування матриці Н, Після поновлення Н, 
аналогічні кроки необхідно виконати для М. А саме необхідно підрахувати 
наступні матриці: Ні хі ,СаНУа | Узі Ух д'хн, та УрХКи, 

У фазі нілрахувку метрики кожен вузол передає відповідний блок Н" всім 
іншим блокам. Після отримання всіх блоків, кожний вузол підраховує відповідну 
части метрики. Ця фаза також представлена на Рисунку 1(Б). 

Результати аналізу 


Був реалізований розподілений алгоритм з використанням СРО, який був 
описаний вище, та проведена факторзація розрідженої матриці оцінок части 
вживання слів англійської мови в різних статтях Вікіпедії. Для порівняння 
швидкодії була також реалізована локальна модель з використанням СРІ) та 
жорсткого диску для запису даних. 
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Обидві моделі працювали з однаковими вхідними даними. Локальна версія 
була запущена на одному з вузлів з тими ж обмеженнями пам'яті. Для проведення 
тестів були використані наступні апаратні засоби: Ше! Соге 17 СРО, МУПШІА 
СеКогсе СТХ560 ІСЬ, 8СЬ ВАМ, ІСрбії І.АМ, 5АТА Ш НОЮ. 

У таблиці 2 порівняно час та ресурси, необхідні для виконання однієї 
ітерації в локальній та розподіленій версії. У таблиці 3 порівняно час та ресурси, 
необхідні для підрахунку функції оцінки Й. Дані таблиць отриманні при К - 300, 


Таблиця 2. Результати порівняння виконання ітерації локальної та розподіленої 


версії 

І оса! Гізіібиіед 
Прочитано 34.44СЬ 6.22Сь 
Записано 16.58СЬ 6.22Сь 
Час ітерації 588 625 
(розрахунки) 
Час ітерації (1/0) 7298 2875 

Таблиця 3. Результати порівняння обчислення функції оцінки й 

І оса! Гізіібиіед 
Прочитано 13.66СЬ 6.22Сь 
Записано 0 6.22Сь 
Час (розрахунки) 458658 113718 
Час (/0) 19258 2808 


На рис.2 показано графік отриманої залежності якості результатів 
факторизації від К та кількості ітерацій. 


003 - К-200 
0029 нен КЕ300 
0028 224 ана ну 
0027 утро 

0026 

0025 


100 200 300 400 500 600 
Рис 2. Графік залежності збіжності алгоритму факторизації від К та кількості 
ітерацій. 
Застосування моделі до факторизації тензорів 


Для того, щоб обчислити невід'ємні матриці-компоненти | (А, В, С), 
зазвичай застосовується обмежений оптимізаційний підхід для мінімізації функції 
оцінки, що підходить. Зазвичай мінімізують наступну функцію: 

рРСРИТА, В, СД) ПУ - ПА, В, СМР Ч одЇМАЙЕ З оурЙВІ  аоЇС, де Чл рис 


невід'ємні регуляційні параметри. 

Існує щонайменше три різні підходи до розв'язання такої оптимізаційної 
задачі. Перший підхід полягає у використанні векторної форми функції оцінки: 
ЛО) - мес(У -|А,В,С|)- 0, Для розв'язання використовується метод найменших 
квадратів. Цей метод для факторизації тензорів вперше використав Паатеро (111. 
Якобіан такої функції може мати розмір ІТО/ х (ІЧ Т - 0), а, отже, такий підхід 
потребує значних розрахункових витрат. 
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У другому підході Акар, Колда та Дунлаві запропонували штучно 
оптимізувати функцію оцінки, використовуючи техніку нелінійної зв'язної 
градієнтної оптимізації| 1 |. 

Третім, і найпоширенішим, підходом є використання техніки ДІ... У цьому 
підході підраховується градієнт функції оцінки для кожної матриці окремо. 

У Де со Уа СО ВУ А((С"С) о (в'в)ча лЇ), 

Ув0р 77 У (С О А) я В((СТС) Ф (АТА) в сії), 

Ура У (ВОДА) с|(в"в) ФАТА) Я ас 


Прирівнюючи кожну компоненту градієнта до 0 та накладаючи умову 
невід'ємності, можна отримати ефективні та прості правила оновлення матриць: 

А4У ау С О В) - |(С"с) Ф (В"В) над, 

ВА ус ОА) (СС) Ф (АТА) як ав, 

САУ (В О А) 4 |(В"В) Є (АТА) чн ас 

Основними перевагами такого підходу є висока швидкість збіжності та 
можливість розподілення для задач великої розмірності. 

Запропонована вище розподілена модель може бути застосована для 
факторизації тензорів. Правила оновлення є однаковими. Тому буде показано 
підрахунок на прикладі однієї матриці: 

А« ау(С О В) ч (С"с) Ф (в"В) чад 1, 

Для мережі з двох вузлів необхідно розділити матриці Й" та Н' на блоки 
таким чином, що ( 7 (с; | Со)" та 87 (Ві | В 7)", та розподілити їх між вузлами так, 
щоб перший вузол був відповідальним за "" б; другий за Ро» Ва 

При такому розподіленні на першому кроці кожний вузол підраховує 
матрицю сіхб, розміру К Х К та надсилає її до агрегатору. Агрегатор об'єднує всі 
отримані блоки в одну матрицю "с та надсилає відповідні частини до вузлів. Далі 
аналогічним чином виконуються розрахунки для (В'В), На наступному кроці 


. лий Т Т - - - 
вузлам необхідно підрахувати рт (с с 2 (В В) наді) та передати відповідні 
4 б -1 5 
матриці на агрегат, на якому підрахується 53, Після чого вузлам необхідно 
(СОВУуНЯ 


підрахувати відповідні частини результуючої матриці у вигляді 
Таким чином, можливе використання запропонованої розподіленої моделі 
до факторизації тензорів. 


Оптимізація факторизації матриці зв'язності 


Так сяк ррозглядувана  розріджена з матриця є матрицею зв'язності 
СловахСтатті, отже можливі перестановки як рядків, так і стовпців початкової 
матриці. 

Розглядувана розріджена матриця має 156,236,043 ненульових елементів з 
10,907,060,852,120 що складає лише 0014906. Така розрідженість дозволяє 
привести матрицю до блочно-діагональної форми за допомогою перестановок 
рядків та стовпчиків. У випадку, коли слово може належати декільком блокам, 
рядок може бути розділений. 

Розміри блоків найкраще обирати такими, що можуть бути повністю 
завантажені в пам'ять. У результаті буде отримано М блоків. 

Переваги такого підходу: 

1. Не потрібно мережевих операцій на кожній ітерації. Необхідне лише 
початкове розподілення блоків матриці між вузлами. 
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2. Швидша збіжність. На рис. 3 та рис. 4 показано графіки залежності часу 
та кількості ітерацій відповідно, необхідні для факторизації квадратних матриць в 
один потік без використання ОРІ. 

3. Швидший підрахунок функції оцінки Й. Кількість елементів для 
підрахунку функції оцінки менша в М разів, кількість необхідних перевірок 
менша, так як зменшується загальна кількість ітерацій. 

4. Зменшення К, а, отже, і зменшення розмірів результатів. 

У результаті для кожного слова буде отримано один або декілька рядків та 
ідентифікатор блоку, в якому це слово знаходиться. При відновленні, якщо слово 
та стаття знаходяться в різних блоках - результатом буде 0, інакше результатом 
буде добуток відповідних рядка та стовпчика. 


3000 80 
2500 60 
о 2000 З 40 
З 1500 р і 
5 1000 Р іа 
500 5 88888888 48 3 
гі о о ооо ооо оо 
0 І чосот чого о гою со 
ж 
5 2ОоФфФОоО-ФФОЬОоеФ 
?ФоООоОФооОФоеоРоОаО і і 
оРроРоФоФФЯ Розмір матриці 
Розмір матриці 
Рис. 3. Графік залежності часу ітерацій Рис. 4. Графік залежності кількості 
від розміру матриці ітерацій від розміру матриці 
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КЕ5СМЕ 


Е.М. Хазігоу 
Моаєі Гог рагаїїеі поп-пебайує зрагзе ехіга-Іагое тайгіх Гасіогігайоп 

Тіз рарег ргоро58е5 рагайе! паеїродє ої поп-пебайує Іагое 5раг5е таїгіх 
Гасбогігайоп - уегу рориіаг іесрлідце їп согаршабйопа! Ппешзіїся. ТБе ргобіет ої поп- 
перайує ТГасіогігайоп Їог а зраг5е Іагєе плайтіх еплегесд іп Ше демеїортепі ої а 
теазиге ої 5еплапіїс 5іпліїагісу Беїууееп м/огдя умі І. ахепі Зеплапіїс АпаїЇу5і8 ц5аєє. 
Ргеуіоцяїу демеїоред рагайеї плодеї5 Бог Моп-Хебайує Мах Касіогігайоп до пої 
тесі Пе гедиігетепіз ої Ше тах адіпеп5іоп5 ог гедшіге5 ехсез85іУсЇу Іагее 
соптрианопа! гезоигсез. 

Го 15 дїйбсиіс 0 ехесиїе ММЕ аїієсогіїбт оп а 5іп8Їе пласріпе, уроці аФштріпє 
Чака го Фе Бага дгіуе де їо ехсе858іме плетогу гедшігетепія. Тууо уагіапіз5 ої Бе 
аїєогійртл штріетепіайоп аге дезстібей: Іоса! мб іпіеп5туе бага дгіуе апа СРО ицзаре 
апа дізітіриіед уліб іпіеп5іує пебмогк апа СРО п5аєе. Вазіс Шегайопя гиіе5 меге 
Фуїдеад о 5іер5 їп огдег Шаї гедцігезв а тіпіта! питіег ої саїсиіайопя їп а плаплег Фа 
тедисе5 атоитпі ої ехсез5іме плетогу соруїп5. 

Тігее дїзітібийоп плодеіз меге сопрагед. Метогу цп5аєе апа ага ігап5тійтпе 
песез55у ої Гасіогігайоп аїсогіїййт має апаїугед апа оріїтігед. Тре дебстібед 
еНеспуе СРО-Базед апа ді5іібиіса аїдогіїйтя меге ітріетепіва, ге5їед оп Пе ягід ої 
Коиг подез апа сотрагедй Бу пеап5 ої Іагее зраг5е паїгісез ргосе585іп?. 

СРО-разед апа ді5ітішеа аїсогіїйтя ууеге согабіпей, млі зресіаї айепіїоп іо 
тетогу ц5аєе, уУрісп аПом/є Іагоег іприс плаїгісе5 о Бе Гасіогігед. Те ехрегітепіз 
зромед Ше соп5ігисівд плодеі 15 еНесіуе. П сап Бе пед іо регіогіа Ше Ка5к5 ої 
іодивітіа! 8саїе їо Гасіогіге 5раг5е плаїгісез ої Іагее Фітепз5іоп улПіб ап ассеріабіе те 
цзіпеє ауайабіе согарийтє гезоицгсез. "ТБі5 рарег Фезсгібеє плодійсайоп ої ргорозей 
дїзібитед тоаеі ої птах пасіогігайоп їо Бе цзей Гог Газі апа ебесіує поп-пегайує 
Гасіогігайоп ої Іагое зраг5е іеп5ог8. 

Рарег ргороз5е5 БіосК5-Чйіабопа! арргоасі Бог Гасіогігайоп ої зраг5е ехіта-Іагре 
таїгісеє мПпісі сап Бе ігап5їогтед іо Біоск5-йаєопаї їогт. ТБі5 арргоасі сап 5реса 
пр Тасіогігайоп, 15 вазу рагайейпо, пеед5 Іе55 пебууогк орегайоп5 апа пиепогу 
тезоцгсе8 Гог Пегайопя апа гезиіїв 81о0гаге. 
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Е.М. Насіров 
Модель  паралелізації невід'ємної факторизації розріджених матриць 
надвеликої розмірності 

У цій статті запропоновано паралельні методи невід'ємної факторизації 
надвеликих розріджених матриць - популярний метод в комп'ютерній лінгвістиці. 
Проблема невід'ємної факторизації розріджених матриць постала в процесі 
розробки системи визначення міри семантичної близькості-зв'язності за 
технологією Латентного Семантичного Аналізу. Існуючі паралельні моделі для 
невід'ємної факторизації матриць не задовольняють потреби розмірності матриці 
або вимагають занадто великих обчислювальних ресурсів. 

Описано два варіанти реалізації алгоритму: локальний з використанням 
жорсткого диска та СРО 1 розподілений з використанням мережі та використання 
СРО. Основні правила ітерації були розділені на кроки з метою, яка вимагає 
мінімальної кількості обчислень таким чином, що знижує кількість надлишкового 
копіювання пам'яті. 

Були зіставлені три моделі розподілу. Використання пам'яті і об'єми 
передачі даних, необхідні для роботи алгоритму факторизації були проаналізовані 
та оптимізовані. Описані локальна модель з використанням СРІ) та розподілена 
модель були реалізовані, випробувані та порівняні. 

Локальний та розподілений алгоритми були об'єднані, з особливою увагою 
до використання пам'яті, що дозволяє факторизувати вхідні матриці надвеликої 
розмірності. Експерименти показали, що побудована модель є ефективною. Вона 
може бути використана для виконання завдань промислового масштабу по 
факторізації розріджених матриць надвеликої розмірності за прийнятний час, 
використовуючи доступні обчислювальні ресурси. 

Ця стаття описує модифікацію запропонованої розподіленої моделі для 
швидкої та ефективної факторизації розріджених тензорів великої розмірності. 

У статті запропоновано блочно-діагональний підхід до  факторизації 
розріджених матриць, які можуть бути приведені до блочно-діагональної форми. 
Цей підхід може прискорити факторизацію, потребує менше мережевих операцій 
та пам'яті для ітерацій 1 зберігання результатів. 

Надійшла до редакції 30.08.2015 


26 о К.М. Насіров 


